2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

Update: 2025-09-22

Description

本期的 13 篇论文如下：

[00:25 ] 🗺 RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation（RPG：用于统一可扩展代码库生成的仓库规划图）

[01:00 ] 🌉 MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer（MANZANO：基于混合视觉词元器的简洁可扩展统一多模态模型）

[01:42 ] 🧩 Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification（潜区分网络：生成建模、表示学习与分类的统一原理）

[02:25 ] 🎯 BaseReward: A Strong Baseline for Multimodal Reward Model（BaseReward：多模态奖励模型的强力基线）

[02:56 ] 🏠 SPATIALGEN: Layout-guided 3D Indoor Scene Generation（SpatialGen：布局引导的3D室内场景生成）

[03:46 ] 🧠 BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent（BTL-UI：面向GUI智能体的“眨眼-思考-连接”脑启发推理模型）

[04:30 ] 🎭 Lynx: Towards High-Fidelity Personalized Video Generation（Lynx：面向高保真个性化视频生成）

[05:20 ] 🤖 A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning（用于机器人真实强化学习的视觉-语言-动作-评价模型）

[05:54 ] 📹 RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes（动态场景下仅基于RGB视频监督的相机参数优化）

[06:21 ] 🗣 Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems（你听见的是我想表达的吗？量化指令感知差距的表达型文本转语音系统研究）

[07:07 ] 🎬 Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents（Video2Roleplay：面向视频引导角色扮演智能体的多模态数据集与框架）

[07:50 ] 🗣 WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers（WhisTLE：面向预训练语音识别Transformer的纯文本深度监督域适应方法）

[08:30 ] 🗣 Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue（主动询问以澄清：通过多轮对话消解指令歧义）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025-09-2611:17

2025.09.25 | 视频模型零样本全能；隐式思维链省token提效

2025-09-2507:59

2025.09.24 | 阿语OCR刷新指标；无标注RL涨分

2025-09-2411:36

2025.09.23 | 少78条示范让AI飙73.5%；免掩膜视频插主体超Pika

2025-09-2311:18

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025-09-2209:35

【周末特辑】9月第4周最火AI论文 | OmniWorld打造4D数据工厂；WebWeaver让AI边搜边写

2025-09-2013:21

2025.09.19 | 跨平台GUI模型刷榜；FlowRL分布匹配提推理

2025-09-1911:38

2025.09.18 | FP8压缩+翻译微调低成本炼阿语大模型；2B-8B小模型洗数据硬刚GPT-4o

2025-09-1810:41

2025.09.17 | WebWeaver框架提升可信长文报告；Agentic预训练扩展智能体系统

2025-09-1708:01

2025.09.16 | OmniWorld建4D数据底座；UI-S1半在线驯界面代理

2025-09-1609:00

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

2025-09-1510:06

【周末特辑】9月第3周最火AI论文 | 群智RL提速大模型；小VLA零预训练控机械

2025-09-1414:35

2025.09.12 | HuMo多模态控人视频；SimpleVLA-RL强化升效

2025-09-1210:34

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

2025-09-1105:31

2025.09.10 | 强化学习并行思维；视觉搜索推理扩展

2025-09-1006:51

00:00

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

#box-pro-ellipsis-175943821019233{-webkit-line-clamp:2;}2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型